Optimizador Muon: Límite de Convergencia y Tamaño de Lote Crítico
El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.
El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.
Twin ajusta LR y weight decay sin validación, logrando error absoluto medio del 1.28%. Ideal para datos escasos o imágenes médicas. ¡Optimiza!